Projet_ADM
Projet final du cours Analyse des Données Multi-dimensionnelles
📌 Présentation du projet
Ce projet constitue le travail final du cours d’analyse des données multidimensionnelles. Il met en application des méthodes statistiques avancées à travers une classification hiérarchique sur les composantes principales issues d’une analyse factorielle. L’objectif est d’exploiter ces outils pour structurer et interpréter un ensemble de données économiques et démographiques.
🎯 Objectifs spécifiques
Le projet couvre plusieurs aspects clés du cours, notamment :
- Justifier l’utilisation de la classification hiérarchique sur les composantes principales.
- Réaliser une analyse factorielle adéquate sur le jeu de données fourni.
- Appliquer la classification hiérarchique sur ces composantes principales.
- Construire un indice synthétique normalisé basé sur les résultats de l’analyse factorielle.
- Découper l’indice obtenu en classes homogènes à l’aide de la méthode des k-means.
- Effectuer une analyse factorielle discriminante en utilisant la classe d’indice obtenue comme variable superviseur.
Nous commencerons par une présentation des données avant d’aborder chaque étape méthodologique.
📊 Présentation de la base de données
Le jeu de données utilisé dans ce projet a été fourni par l’enseignant. Il est au format Excel et décrit 120 pays à l’aide de 12 variables quantitatives reflétant des indicateurs économiques et démographiques.
🏷️ Description des variables
| Variable | Description |
|---|---|
Croi_PIB/hab |
Taux de croissance du PIB par habitant |
Ctr_agri_PIB(%) |
Contribution de l’agriculture à la création de richesse |
Poids_Exp_sur_PIB(%) |
Poids des exportations dans le PIB |
Ctr_Tertiaire_PIB(%) |
Contribution du secteur tertiaire à la création de richesse |
Ctrind_PIB(%) |
Contribution de l’industrie à la création de richesse |
Tx_Eau_potable |
Taux d’accès à l’eau potable |
Taux_pene_Tel_mob |
Taux de pénétration du téléphone mobile |
Part_Pop_0-14_ans |
Part des enfants dans la population totale |
Part_Pop_65ans_et_plus |
Part des personnes âgées dans la population totale |
Pop_rurale |
Part de la population vivant en milieu rural |
Croi_pop |
Taux de croissance démographique |
Use_Index_Internet |
Indice d’utilisation d’Internet |
🚀 Méthodologie et étapes d’analyse
- Prétraitement des données : Vérification des valeurs manquantes et standardisation des variables.
- Analyse factorielle : Identification des composantes principales et justification de leur utilisation.
- Classification hiérarchique : Segmentation des pays en groupes homogènes sur la base des composantes principales.
- Construction d’un indice synthétique : Création d’un score normalisé pour chaque pays.
- Clustering par k-means : Découpage de l’indice synthétique en classes.
- Analyse factorielle discriminante (AFD) : Validation des classes obtenues en étudiant leur pouvoir discriminant.
- Comparaison AFD et classification sur composantes principales: Comparaison du taux d’erreur de classement (TEC) de l’AFD et celui de la classification sur composantes principales.
Question 1
L’application de la classification hiérarchique sur les composantes principales issues d’une analyse factorielle est une approche courante en statistique et en machine learning pour réduire le bruit (denoising) et éviter le sur-apprentissage (overfitting). Le terme Denoising (réduction du bruit) désigne la suppression du bruit dans un ensemble de données.Le bruit ici fait reférence à toute forme de données indésirables, qui pertube l’information essentielle que nous souhaitons analyser. De l’autre côté, le terme Overfiting (sur-apprentissage) fait reférence à une situation où un modèle d’apprentissage s’adapte trop étroitement aux données d’entraînement (training) capturant non seulement les tendances réelles, mais aussi, les particularités des données d’entraînement. Cela peut conduire à une très bonne performance sur les données d’entraînement, mais à une mauvaise performance sur des données non vues (données de test ou de nouvelles données), car le modèle a une faible capacité de généralisation.
Ainsi apparaît alors la necessité d’effectuer la classification hiérarchique sur les composantes principales, car:
les composantes principales retiennent l’essentiel de l’information contenue dans les variables d’origine,
elles filtrent le bruit en éliminant les dimensions avec de faibles variances, souvent associées au bruit dans les données,
aussi, les composantes principales sont des variables synthétiques, qui sont moins sensibles aux fluctuations aléatoires des données d’origine.
Question 2 : Réalisation de l’analyse factorielle
Notre jeu de données contient 121 observations et 13 variables dont 12 quantitatives et une variable qualitative (Pays) renseignant sur les pays. Nous allons tout d’abord mettre la variable Pays comme index, et puisqu’on disposera uniquement des variables quantitatives, nous réaliserons alors une analyse en composantes principales (ACP), qui est la méthode d’analyse factorielle adaptée à ce type de variables.
Chargement du jeu de données
Prétraitement
Croi PIB/hab Ctr_agri_PIB(%) Poids_Exp_sur_PIB(%) Ctr_Tertiaire_PIB(%)
Min. :-6.564 Min. : 0.117 Min. : 7.598 Min. :22.78
1st Qu.: 0.978 1st Qu.: 4.418 1st Qu.: 22.507 1st Qu.:44.48
Median : 2.171 Median :12.433 Median : 33.754 Median :54.30
Mean : 2.533 Mean :15.942 Mean : 39.817 Mean :54.54
3rd Qu.: 3.566 3rd Qu.:24.492 3rd Qu.: 48.068 3rd Qu.:64.81
Max. :11.135 Max. :55.743 Max. :205.718 Max. :81.48
Tx_Eau_potable Ctrind_PIB(%) Taux_pene_Tel_mob Part_Pop_0-14 ans
Min. : 41.00 Min. :11.93 Min. : 0.412 Min. :14.16
1st Qu.: 75.00 1st Qu.:22.19 1st Qu.: 14.967 1st Qu.:21.19
Median : 90.50 Median :26.82 Median : 94.680 Median :32.64
Mean : 83.88 Mean :29.23 Mean : 222.201 Mean :31.98
3rd Qu.: 99.00 3rd Qu.:32.04 3rd Qu.: 324.468 3rd Qu.:41.65
Max. :100.00 Max. :67.65 Max. :1001.451 Max. :50.37
Part_Pop_65ans_et_plus Pop_rurale Crois_pop Use_Index_Internet
Min. : 1.072 Min. : 0.00 Min. :-1.1030 Min. :0.0002159
1st Qu.: 3.357 1st Qu.:28.14 1st Qu.: 0.5677 1st Qu.:0.0074477
Median : 4.827 Median :43.89 Median : 1.4315 Median :0.0429309
Mean : 7.144 Mean :46.01 Mean : 1.4269 Mean :0.1582197
3rd Qu.:11.679 3rd Qu.:64.56 3rd Qu.: 2.1610 3rd Qu.:0.1809836
Max. :18.945 Max. :90.84 Max. : 7.0740 Max. :0.8723239
[1] 0
Réalisation de l’ACP
Call:
PCA(X = data, scale.unit = TRUE, ncp = 5, graph = TRUE)
Eigenvalues
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7 Dim.8
Variance 6.02 1.66 1.44 0.79 0.63 0.47 0.37 0.32
% of var. 50.16 13.82 12.02 6.60 5.27 3.89 3.10 2.65
Cumulative % of var. 50.16 63.97 76.00 82.60 87.87 91.76 94.86 97.51
Dim.9 Dim.10 Dim.11 Dim.12
Variance 0.15 0.09 0.06 0.00
% of var. 1.22 0.76 0.50 0.01
Cumulative % of var. 98.73 99.49 99.99 100.00
Individuals (the 10 first)
Dist Dim.1 ctr cos2 Dim.2 ctr cos2
Republique du Congo | 4.94 | -2.00 0.55 0.16 | 3.66 6.74 0.55 |
Niger | 4.73 | -4.25 2.50 0.81 | -1.41 1.00 0.09 |
Tchad | 4.92 | -3.74 1.94 0.58 | 0.16 0.01 0.00 |
Republique centrafricaine | 4.80 | -3.57 1.76 0.55 | -1.08 0.59 0.05 |
Cambodge | 4.07 | -3.07 1.31 0.57 | 0.88 0.39 0.05 |
Burundi | 4.15 | -3.56 1.75 0.74 | -1.54 1.19 0.14 |
Bangladesh | 2.34 | -2.03 0.57 0.75 | -0.30 0.04 0.02 |
Nigeria | 4.25 | -2.99 1.24 0.49 | 2.55 3.26 0.36 |
Burkina Faso | 3.83 | -3.44 1.64 0.81 | -1.34 0.90 0.12 |
Yemen | 3.33 | -2.56 0.90 0.59 | 0.94 0.44 0.08 |
Dim.3 ctr cos2
Republique du Congo 2.24 2.91 0.21 |
Niger 0.60 0.21 0.02 |
Tchad -1.32 1.00 0.07 |
Republique centrafricaine -0.29 0.05 0.00 |
Cambodge -1.22 0.86 0.09 |
Burundi 0.10 0.01 0.00 |
Bangladesh -0.71 0.29 0.09 |
Nigeria 0.38 0.08 0.01 |
Burkina Faso 0.13 0.01 0.00 |
Yemen 1.36 1.06 0.17 |
Variables (the 10 first)
Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr
Croi PIB/hab | 0.20 0.65 0.04 | 0.50 14.84 0.25 | -0.69 33.14
Ctr_agri_PIB(%) | -0.82 11.06 0.67 | -0.24 3.49 0.06 | -0.26 4.83
Poids_Exp_sur_PIB(%) | 0.36 2.20 0.13 | 0.51 15.45 0.26 | 0.30 6.35
Ctr_Tertiaire_PIB(%) | 0.73 8.87 0.53 | -0.50 14.90 0.25 | 0.11 0.81
Tx_Eau_potable | 0.78 10.12 0.61 | -0.08 0.39 0.01 | 0.03 0.08
Ctrind_PIB(%) | 0.14 0.32 0.02 | 0.89 47.71 0.79 | 0.20 2.71
Taux_pene_Tel_mob | 0.87 12.64 0.76 | -0.08 0.43 0.01 | 0.20 2.88
Part_Pop_0-14 ans | -0.92 14.04 0.84 | -0.06 0.21 0.00 | 0.26 4.80
Part_Pop_65ans_et_plus | 0.87 12.51 0.75 | -0.14 1.16 0.02 | -0.32 7.21
Pop_rurale | -0.77 9.88 0.59 | -0.09 0.45 0.01 | -0.30 6.13
cos2
Croi PIB/hab 0.48 |
Ctr_agri_PIB(%) 0.07 |
Poids_Exp_sur_PIB(%) 0.09 |
Ctr_Tertiaire_PIB(%) 0.01 |
Tx_Eau_potable 0.00 |
Ctrind_PIB(%) 0.04 |
Taux_pene_Tel_mob 0.04 |
Part_Pop_0-14 ans 0.07 |
Part_Pop_65ans_et_plus 0.10 |
Pop_rurale 0.09 |
Choix du nombre d’axes à retenir
Le choix du nombre d’axe à retenir a été fait en s’appuyant sur les méthodes du critère de Kaiser et le taux d’inertie.
Critère de kaiser : selon ce critère, nous retiendrons les axes dont la valeur propre est supérieure à 1. L’application de ce critère nous conduit alors au choix des trois premiers axes ayant comme valeurs propres respectives 6,01 1,65 et 1,44.
Taux d’inertie : selon ce critère, nous devons retenir des axes de telle sorte que la part cumulée d’inertie expliquée soit au moins égale à 70%. L’application de ce critère nous conduit également au choix des trois premiers axes.
Ainsi, pour la suite, nous nous limiterons aux trois premiers axes, ce qui rend compte de 76% de l’information, soit 50,2% pour la première dimension, 13,8% pour la deuxième dimension et 12% pour la troisième.
eigenvalue variance.percent cumulative.variance.percent
Dim.1 6.0187853119 50.156544266 50.15654
Dim.2 1.6578002217 13.815001848 63.97155
Dim.3 1.4429391115 12.024492595 75.99604
Dim.4 0.7923498182 6.602915151 82.59895
Dim.5 0.6319662789 5.266385658 87.86534
Dim.6 0.4671974813 3.893312344 91.75865
Dim.7 0.3722976320 3.102480267 94.86113
Dim.8 0.3181737217 2.651447681 97.51258
Dim.9 0.1464959677 1.220799731 98.73338
Dim.10 0.0911190402 0.759325335 99.49270
Dim.11 0.0599260057 0.499383381 99.99209
Dim.12 0.0009494092 0.007911744 100.00000
Analyse du nuage des variables
Contribution des variables
La quasi totalité des variables ont une bonne contribution sur le premier axe, excepté les variables Croi PIB/hab, Poids_Exp_sur_PIB(%) et Ctrind_PIB(%) qui contribuent faiblement à la formation de la dimension 1. Quant à la deuxième dimension, les variables les plus contributrices sont Ctrind_PIB(%), Croi PIB/hab, Poids_Exp_sur_PIB(%) et Ctr_Tertiaire_PIB(%). Les autres variables participent très faiblement à la formation de cet axe. Pour le troisième axe, les variables ayant de bonnes contributions sont Croi PIB/hab et Crois_pop.
Cercle de correlation et qualité de représentation des variables
L’analyse de la qualité de représentation des variables révèle que pratiquement toutes les variables ont une bonne qualité de représentation sur le premier axe, à l’exception des variables citées plus haut, qui contribuent faiblement à la formation de cet axe. Par ailleurs, seules variables Ctrind_PIB(%), Croi PIB/hab, Poids_Exp_sur_PIB(%) et Ctr_Tertiaire_PIB(%) sont bien représentées sur le deuxième axe. Sur la troisième dimension, seule la variable Croi PIB/hab est bien représentée. Dans la suite, nous interprêterons uniquement les variables qui ont une bonne contribution et qui sont bien représentées sur les axes.
Dim.1 Dim.2 Dim.3 Dim.4
Croi PIB/hab 0.03918365 2.460416e-01 0.478232109 0.0077283281
Ctr_agri_PIB(%) 0.66585428 5.784420e-02 0.069647459 0.0781876325
Poids_Exp_sur_PIB(%) 0.13237371 2.561749e-01 0.091580173 0.3378773159
Ctr_Tertiaire_PIB(%) 0.53402372 2.469445e-01 0.011621938 0.0042421718
Tx_Eau_potable 0.60935287 6.450193e-03 0.001116179 0.0919578434
Ctrind_PIB(%) 0.01929048 7.909769e-01 0.039137008 0.0727063945
Taux_pene_Tel_mob 0.76077019 7.125300e-03 0.041576534 0.0564638867
Part_Pop_0-14 ans 0.84475209 3.424598e-03 0.069228122 0.0004082713
Part_Pop_65ans_et_plus 0.75268684 1.927067e-02 0.103969602 0.0089642883
Pop_rurale 0.59474788 7.389885e-03 0.088520661 0.0577076122
Crois_pop 0.40244880 3.666041e-06 0.393209266 0.0014538060
Use_Index_Internet 0.66330079 1.615382e-02 0.055100060 0.0746522674
Dim.5
Croi PIB/hab 0.031415704
Ctr_agri_PIB(%) 0.031784512
Poids_Exp_sur_PIB(%) 0.136614476
Ctr_Tertiaire_PIB(%) 0.143502326
Tx_Eau_potable 0.019578486
Ctrind_PIB(%) 0.055171240
Taux_pene_Tel_mob 0.058751959
Part_Pop_0-14 ans 0.006488717
Part_Pop_65ans_et_plus 0.053765742
Pop_rurale 0.002380482
Crois_pop 0.001677612
Use_Index_Internet 0.090835023
$Dim.1
Link between the variable and the continuous variables (R-square)
=================================================================================
correlation p.value
Taux_pene_Tel_mob 0.8722214 1.876824e-38
Part_Pop_65ans_et_plus 0.8675753 1.340222e-37
Use_Index_Internet 0.8144328 1.147331e-29
Tx_Eau_potable 0.7806106 7.685066e-26
Ctr_Tertiaire_PIB(%) 0.7307693 2.701841e-21
Poids_Exp_sur_PIB(%) 0.3638320 4.412134e-05
Croi PIB/hab 0.1979486 3.021852e-02
Crois_pop -0.6343885 7.305274e-15
Pop_rurale -0.7711990 6.780662e-25
Ctr_agri_PIB(%) -0.8159989 7.308185e-30
Part_Pop_0-14 ans -0.9191040 1.484473e-49
$Dim.2
Link between the variable and the continuous variables (R-square)
=================================================================================
correlation p.value
Ctrind_PIB(%) 0.8893688 6.404906e-42
Poids_Exp_sur_PIB(%) 0.5061372 3.695239e-09
Croi PIB/hab 0.4960259 8.367586e-09
Ctr_agri_PIB(%) -0.2405082 8.144575e-03
Ctr_Tertiaire_PIB(%) -0.4969351 7.783089e-09
$Dim.3
Link between the variable and the continuous variables (R-square)
=================================================================================
correlation p.value
Crois_pop 0.6270640 1.826610e-14
Poids_Exp_sur_PIB(%) 0.3026222 7.808526e-04
Part_Pop_0-14 ans 0.2631124 3.691077e-03
Use_Index_Internet 0.2347340 9.862015e-03
Taux_pene_Tel_mob 0.2039032 2.549680e-02
Ctrind_PIB(%) 0.1978308 3.031898e-02
Ctr_agri_PIB(%) -0.2639080 3.585165e-03
Pop_rurale -0.2975242 9.662728e-04
Part_Pop_65ans_et_plus -0.3224432 3.286033e-04
Croi PIB/hab -0.6915433 2.251951e-18
Conclusion : Au regard des contributions, coordonnées (correlation), et qualité de représentation des différentes variables, il ressort que :
le premiser axe factoriel permet de distinguer les deux groupes de variables suivantes :
- Groupe 1:
Taux_pene_Tel_mob,Ctr_Tertiaire_PIB(%),Tx_Eau_potable,Part_Pop_65ans_et_plus,Use_Index_Internet; - Groupe 2:
Ctr_agri_PIB(%),Part_Pop_0-14 ans,Pop_rurale,Crois_pop
L’ axe 1 oppose donc les variables du groupe 1 (qui sont correlées positivement à l’axe) aux variables du groupe 2, qui quant à elles sont correlées négativement à l’axe. En d’autres termes, cet axe oppose deux catégories de pays:
les pays ayant de fortes valeurs pour les variables du groupe 1, et de faibles valeurs pour les variables du groupe 2: pays développés;
les pays ayant de fortes valeurs pour les variables du groupe 2, et de faibles valeurs pour celles du groupe 1: pays sous-développés.
Par ailleurs, la deuxième dimension met en opposition les deux groupes de variables suivants:
Groupe 1:
Ctrind_PIB(%),Poids_Exp_sur_PIB(%),Croi PIB/hab;Groupe 2:
Ctr_Tertiaire_PIB(%)
Ainsi, le deuxième permet de distinguer deux profils de pays:
les pays ayant de fortes valeurs pour les variables du groupe 1, et de faibles valeurs pour les variables du groupe 2: pays à économie industrielle et exportatrice;
les pays ayant de fortes valeurs pour les variables du groupe 2, et de faibles valeurs pour celles du groupe 1: pays à économie tertiaire.
Le troisième axe quant à lui permet de distinguer deux profils de pays, suivant leur valeur pour la variable Croi PIB/hab. Les pays situés à gauche de cet axe sont caractérisés par des taux de croissance du PIB par tête élevés.
Analyse du nuage des individus
Représentation du nuage des individus
Contribution des individus
L’axe 1 oppose les pays telsque Luxembourg, Belgique, Singapore, Canada, Etats-Unis aux pays pays telsque le Mali, l’OUganda, la Tanzanie, le Tchad.
Le deuxième axe quant à lui, met en opposition les pays comme l’Angola, la République du Congo,le Nigéria, l’Algérie, avec les pays telsque les Etats-Unis, la France, la Tanzanie, le Burkina Faso.
La troisième dimension permet de distinguer les pays telsque Emirats arab unis, Singapore, Réoublique du Congo, avec les pays comme l’ Arménie, la Georgie, l’Ukraine.
Dim.1 Dim.2 Dim.3 Dim.4
Republique du Congo 0.5533119710 6.744721e+00 2.907327e+00 1.731950e-02
Niger 2.5007758478 1.004299e+00 2.054574e-01 9.718953e-01
Tchad 1.9413761723 1.254769e-02 1.002214e+00 1.744074e+00
Republique centrafricaine 1.7632772855 5.868068e-01 4.863131e-02 1.389691e-01
Cambodge 1.3053247021 3.922229e-01 8.563115e-01 3.982255e+00
Burundi 1.7534446764 1.187189e+00 5.609655e-03 2.970462e-02
Bangladesh 0.5684324094 4.483537e-02 2.949958e-01 5.858071e-02
Nigeria 1.2367417393 3.261183e+00 8.264285e-02 1.028170e-01
Burkina Faso 1.6364179476 9.019225e-01 9.602914e-03 1.150132e-01
Yemen 0.9042379974 4.431666e-01 1.060393e+00 1.132614e-01
Mali 1.9075782908 3.782224e-03 1.352695e-03 9.614166e-01
Malawi 1.4926800666 8.486243e-01 3.569217e-06 5.213420e-01
Laos 2.1791547001 3.161286e-02 6.688874e-01 2.076550e+00
Guinée 1.1866840855 1.066162e-01 6.852084e-02 2.118005e-03
Angola 0.6646994982 1.213946e+01 2.367519e-01 1.961063e-03
Mozambique 1.0453083201 9.868757e-02 3.908694e-01 4.230837e-01
Tanzanie 1.5786154991 2.437757e-01 1.042402e+00 9.548443e-01
Madagascar 1.3917972705 1.307448e+00 1.827641e-01 7.224623e-01
Nepal 1.0487158831 3.579813e-01 1.836243e-01 3.352572e-02
Mauritanie 1.0933658646 3.530037e-02 3.848403e-01 2.120604e-01
Ouganda 1.9586811436 3.984979e-01 3.683924e-03 2.744019e-01
Albanie 0.0144921620 1.560547e-01 2.444328e+00 1.635893e-01
Soudan 1.0530775972 5.615791e-02 6.224132e-01 9.039218e-02
Ghana 0.7674440696 5.992201e-03 6.579330e-03 3.134108e-01
Zambie 0.8238040754 3.568380e-02 1.635382e-02 2.120539e-03
Cameroun 0.9271990957 5.105609e-01 1.078336e-01 1.921900e-01
Benin 1.1765759074 1.238417e+00 5.920375e-02 6.774203e-02
Djibouti 0.0233091960 1.210740e+00 1.474639e+00 7.849541e-01
Côte d'Ivoire 0.4247236144 5.190140e-01 8.091736e-01 1.378315e-03
Syrie 0.4328788479 7.305121e-02 2.544037e-01 3.872621e-01
Comores 1.3304099629 1.502623e+00 5.694996e-02 1.453765e-01
Pakistan 0.4586199120 3.685510e-01 8.612478e-04 4.054408e-01
Kenya 1.1335837628 8.671237e-01 1.032652e-03 3.587037e-01
Senegal 0.3995225622 4.761878e-01 1.111184e-01 2.030410e-02
Sri Lanka 0.0746865466 1.099531e-03 1.408737e+00 8.394895e-02
Algerie 0.0785929504 3.243647e+00 5.131019e-02 1.952834e+00
Indie 0.2371091495 2.532873e-02 7.049145e-01 2.423716e-01
Zimbabwe 0.3131531318 2.447963e+00 1.109724e+00 7.602390e-01
Georgie 0.1087262531 4.366080e-03 5.638496e+00 2.965013e-03
Paraguay 0.0903568521 4.731957e-01 7.429667e-01 2.989379e-02
Egypte 0.1219233305 9.359870e-03 2.407039e-03 1.391323e+00
Nicaragua 0.1970803057 2.528154e-02 7.953307e-06 5.501936e-01
Gambie 0.5425307576 8.026038e-01 2.238616e-01 2.602279e-01
Swaziland 0.5252183958 2.179940e+00 8.216663e-01 1.048857e+00
Ukraine 0.4793259904 1.664776e+00 5.368465e+00 1.646559e-02
Maroc 0.0426467802 9.420522e-03 5.036808e-03 2.349080e-01
Gabon 0.0316067199 2.436235e+00 1.805387e+00 1.692207e+00
Honduras 0.2036338075 6.087266e-03 3.291388e-01 2.914840e-01
Guatemala 0.2678310614 1.082105e+00 2.517715e-01 4.358676e-01
Indonesie 0.1343286288 1.359787e+00 8.547786e-02 3.977502e-01
Armenie 0.0262745091 1.870733e+00 7.072260e+00 2.396167e-01
Mongolie 0.1337174385 3.188776e-02 3.832516e-02 1.105780e+00
Iran 0.0133793840 5.732908e-01 4.669856e-02 1.974003e+00
Moldavie 0.0347193998 6.130911e-02 3.266177e+00 1.836677e-01
Kirghizistan 0.4247024947 4.461987e-02 1.145504e+00 4.727788e-01
Namibie 0.1392495516 1.755673e-02 3.778592e-02 4.507055e-02
Bolivie 0.1036548881 7.018082e-02 3.246051e-01 9.886547e-01
Botswana 0.0004311108 4.322810e+00 5.511890e-02 1.549071e+00
Tonga 0.2007116686 1.143778e+00 1.306367e+00 2.573919e-01
Salvador 0.0226914741 4.507252e-02 4.139494e-01 9.658609e-01
Togo 1.5270526151 4.975411e-01 3.461370e-01 9.975549e-01
Equateur 0.0001845286 1.547094e-01 1.902962e-04 1.650681e+00
Cap-Vert 0.0500851987 8.051142e-01 1.576477e-01 2.154081e-01
Fiji 0.1579900580 1.171225e-02 4.365129e-02 1.176755e+00
Philippines 0.0429030511 1.460575e-01 1.655513e-01 2.986522e-02
Chine 0.0068020902 2.561600e+00 2.512888e+00 2.139892e-01
Colombie 0.0028280247 1.638533e-02 1.042705e-01 1.821191e+00
Russie 0.5502009153 5.981726e-01 2.586430e+00 1.074628e+00
Suriname 0.0549434299 2.755999e-01 9.057010e-02 8.868149e-01
Panama 0.0712229129 4.722792e-01 4.622290e-01 6.611946e-02
Tunisie 0.0185859542 2.605892e-02 6.829628e-02 3.347176e-01
Venezuela 0.0074872181 8.126220e-01 1.709172e+00 3.000231e+00
Jordanie 0.0252560445 1.019333e-02 9.246031e-01 1.005323e+00
Turquie 0.0444097914 2.016209e-01 3.677318e-04 3.878794e-01
Thailand 0.0153976219 1.550337e+00 1.450313e-01 2.140547e-04
Afrique du Sud 0.0131163443 6.308747e-03 2.188463e-01 8.935727e-01
Perou 0.0002941454 3.381111e-02 8.535997e-02 1.767625e+00
Roumanie 0.1297437181 5.924454e-01 3.339984e+00 1.064627e-01
Jamaique 0.0866865653 2.391621e-02 2.324080e-02 3.474392e-01
Bulgarie 0.9176108032 2.267951e-01 3.151912e+00 1.822894e-04
Belize 0.0458305656 1.387379e-01 1.763275e-01 1.510568e-01
Mexique 0.1206198925 2.393780e-01 2.283021e-01 1.521720e+00
Lettonie 1.3036872474 7.956477e-04 3.704712e+00 2.243618e-02
Maurice 0.1389943565 4.379549e-02 1.937358e-03 3.422226e-04
Trinité_et-Tobago 0.0526245451 3.104913e+00 1.287567e+00 4.059884e-06
Sainte-Lucie 0.0287053205 8.420649e-01 1.980280e-03 9.784678e-04
Argentine 0.2195326132 2.777302e-01 3.005417e-01 2.644137e+00
Liban 0.2503714093 4.161438e-01 9.327044e-04 2.049188e+00
Koweit 0.1840320786 4.129326e+00 1.194412e+00 1.633145e+00
Grèce 1.3713669489 6.491071e-01 1.184579e+00 5.786497e-03
Costa Rica 0.0159105635 1.408348e-02 4.488301e-01 3.446629e-01
Uruguay 0.4483804802 7.982435e-01 1.426243e-01 2.052755e+00
Guyane 0.0777813940 1.861765e-01 2.327224e-02 3.648463e+00
Croatie 1.0190004182 1.330616e-02 1.671275e+00 7.964276e-03
Hongrie 1.3669935535 1.381702e-01 6.060741e-01 1.889519e-01
Slovaquie 0.9760829143 7.239370e-02 2.464982e-01 3.495177e-01
Republique tch鑡ue 1.5688570200 3.005299e-01 6.712325e-02 6.708641e-02
Espagne 1.5352539219 2.921465e-01 5.252446e-03 9.040120e-02
Chilie 0.3719680150 3.451674e-01 1.927262e-01 8.245960e-01
France 1.6384016180 1.266569e+00 1.908905e-04 6.465277e-02
Emirats arab unis 0.0334938680 2.153190e+00 1.304186e+01 2.155279e-02
Malaysie 0.1579322739 4.024520e+00 1.968079e+00 1.808425e+00
Norvège 1.7178941871 4.755010e-02 1.761346e-01 4.980656e-05
Italie 2.3222683103 7.683236e-01 7.040887e-03 2.855592e-02
Belgique 2.8350373511 1.022483e-01 3.258332e-01 1.091857e+00
Allemagne 2.2253416848 4.303973e-01 1.337766e-03 5.968225e-04
Luxembourg 3.2176473126 8.401344e-03 1.167202e+00 9.997374e+00
Estonie 2.2444802234 1.816025e-01 1.006651e+00 2.009829e+00
Royaume Uni 2.4251558317 6.420884e-01 1.747900e-02 1.449543e-02
Autriche 2.2205271173 2.254390e-01 8.495796e-02 4.924371e-01
Japon 1.9902079843 6.585363e-01 6.821594e-02 1.543396e-01
Danemark 2.4304010755 6.392892e-01 2.440247e-01 2.618537e-01
Singapore 2.7800711033 2.792974e+00 4.801640e+00 1.585480e+01
Finlande 2.0662757099 1.382849e-01 3.975589e-05 4.381882e-01
Australie 1.6144906908 7.567664e-01 3.173206e-01 7.308190e-02
Nouvelle_Zélande 1.3426146942 3.286281e-01 5.701345e-02 1.188020e-01
Canada 1.4987446564 4.773314e-02 2.099240e-01 6.447729e-05
Hollande 2.4475877673 5.512271e-01 6.890683e-01 1.472532e+00
Etats-Unis 1.6031336002 1.657001e+00 1.990816e-01 1.794875e-01
Suisse 3.1449539334 4.304650e-01 1.376212e-01 7.732265e-01
Dim.5
Republique du Congo 0.4512482394
Niger 0.7304136528
Tchad 0.0102056166
Republique centrafricaine 4.3851031810
Cambodge 0.0005158188
Burundi 0.8175943331
Bangladesh 0.0015343525
Nigeria 2.0149823162
Burkina Faso 0.0988306427
Yemen 0.0441772785
Mali 0.4712994710
Malawi 0.0862161391
Laos 2.2838961951
Guinée 1.1708705758
Angola 0.3249787311
Mozambique 0.0002916026
Tanzanie 0.2658656143
Madagascar 0.0002490027
Nepal 0.2604776138
Mauritanie 0.1557771785
Ouganda 0.2552738715
Albanie 0.3419059005
Soudan 0.3779847568
Ghana 0.0252140270
Zambie 0.0175183670
Cameroun 0.0675645998
Benin 0.0039906810
Djibouti 5.5805939138
Côte d'Ivoire 0.1203230604
Syrie 0.0548777802
Comores 0.3984108848
Pakistan 0.0531854775
Kenya 0.0006977591
Senegal 1.0108588143
Sri Lanka 0.1138392750
Algerie 0.6156557959
Indie 0.0469341318
Zimbabwe 0.0019386202
Georgie 0.1106996889
Paraguay 0.4053422245
Egypte 0.0019538495
Nicaragua 0.1526574484
Gambie 0.6070159919
Swaziland 0.0182768812
Ukraine 0.6136024874
Maroc 0.0528898671
Gabon 0.3946398557
Honduras 0.3931002318
Guatemala 0.1749333797
Indonesie 0.5102268367
Armenie 0.0084514242
Mongolie 1.0342231420
Iran 0.0278679131
Moldavie 0.6687254380
Kirghizistan 0.1380204429
Namibie 1.3988674824
Bolivie 0.0206754769
Botswana 0.0338484771
Tonga 0.1093611677
Salvador 0.0391899008
Togo 0.6246162817
Equateur 0.2157682079
Cap-Vert 3.2664679233
Fiji 0.6127645032
Philippines 0.4417145947
Chine 0.3627663445
Colombie 0.0404103487
Russie 0.5217400370
Suriname 1.0675382837
Panama 5.3448302138
Tunisie 1.2479602747
Venezuela 0.8136498165
Jordanie 3.7548607847
Turquie 0.3773954385
Thailand 0.1829848871
Afrique du Sud 0.3971916324
Perou 0.1432165782
Roumanie 0.6894148450
Jamaique 0.1439021872
Bulgarie 0.1486745154
Belize 2.3417120896
Mexique 1.0298163015
Lettonie 1.6219694171
Maurice 1.1731790984
Trinité_et-Tobago 0.0177971306
Sainte-Lucie 3.3277638706
Argentine 0.1606180095
Liban 0.6600753262
Koweit 0.0009336762
Grèce 0.1172724099
Costa Rica 0.4992526319
Uruguay 0.0222002671
Guyane 0.0400179150
Croatie 0.0013004547
Hongrie 0.1982320331
Slovaquie 0.8823902182
Republique tch鑡ue 0.1427994352
Espagne 1.1264978015
Chilie 0.3718276118
France 0.1906477598
Emirats arab unis 1.2219809648
Malaysie 0.0423463947
Norvège 2.9526219984
Italie 2.7943364731
Belgique 0.0206404594
Allemagne 1.4546217745
Luxembourg 3.5590304075
Estonie 0.2349720894
Royaume Uni 1.1563029047
Autriche 1.7895213227
Japon 3.8422748788
Danemark 0.8273260486
Singapore 5.9533195467
Finlande 2.6697776796
Australie 1.5208990030
Nouvelle_Zélande 1.0507156104
Canada 0.9413373923
Hollande 0.3918970060
Etats-Unis 1.0567647898
Suisse 2.6192772197
Qualité de représentation des individus
Représentation simultanée
Conclusion générale de l’ACP:
A l’issu de l’analyse factorielle, il ressort que la dimension 1 oppose les pays telsque Luxembourg, Belgique, Singapore, Canada, Etats-Unis, situés du côté droit de l’axe caractérisés par de fortes valeurs pour les variables Taux_pene_Tel_mob, Ctr_Tertiaire_PIB(%), Tx_Eau_potable, Part_Pop_65ans_et_plus, Use_Index_Internet et de faibles valeurs pour les variables Ctr_agri_PIB(%), Part_Pop_0-14 ans, Pop_rurale, Crois_pop contre les pays telsque le Mali, l’OUganda, la Tanzanie, le Tchad caractérisés par de fortes valeurs pour les variables Ctr_agri_PIB(%), Part_Pop_0-14 ans, Pop_rurale, Crois_pop et de faibles valeurs pour les variables Taux_pene_Tel_mob, Ctr_Tertiaire_PIB(%), Tx_Eau_potable, Part_Pop_65ans_et_plus, Use_Index_Internet. Par conséquent, le premier axe est donc nommé axe du développement.
Le deuxième axe quant à lui oppose les pays caractérisés avec des valeurs élevées pour les variables Ctrind_PIB(%), Poids_Exp_sur_PIB(%), Croi PIB/hab et de faibles valeurs pour la variable Ctr_Tertiaire_PIB(%), à l’exemple de l’Angola, la République du Congo,le Nigéria, l’Algérie, situés à droite de l’axe contre les pays avec de fortes valeurs pour la variable Ctr_Tertiaire_PIB(%) et de faibles valeurs pour les variables Ctrind_PIB(%), Poids_Exp_sur_PIB(%), Croi PIB/hab: les Etats-Unis, la France, la Tanzanie, le Burkina Faso. Ainsi le second axe est appelé axe de l’économie tertiaire à l’économie industrielle et exportatrice.
Le troisième axe permet d’opposer les pays ayant un taux de croissance du PIB par habitant élevé situés à gauche de l’axe contre ceux avec un faible taux. Cet axe peut donc être nommé axe de la croissance du PIB par habitant.
Question 3: Classification hiérarchique sur composantes principales
Dans cette partie, nous effectuerons une classification ascendante hiérarchique sur les composantes pricipales de l’analyse factorielle.Pour ce faire, nous commencerons par extraire les coordonnées des individus sur les axes retenus et les stockées dans une variable. Le calcul de la matrice de distance sera alors fait à partir des ces valeurs.
Calcul de la matrice de distance
La matrice des distances est faite ici en utilisant la norme euclidienne. Elle donne pour chaque individu, la distance entre les autres individus et lui même, sur la base de métrique utilisée.
[1] 4.256187 4.070099 4.275252 3.611794 4.442623
Réalisation de la CAH
La méthode d’aggrégation utilisée ici est la méthode de ward D2.
Choix du nombre de classes
Diagramme des indices de niveau
Nous utiliserons le diagramme des indices de niveau afin de déterminer le nombre optimal de classe pour la réalisation de la CAH. La visualisation de ce diagramme suggère dès lors de découper nos données en 4 classes.
Représentation des sauts d’inertie
Méthode du coefficient de silhouette
Le coefficient de silhouette est une valeur comprise entre -1 et 1, mesurant la qualité du clustering en évaluant dans quelle mesure chaque point est bien assigné à son cluster. Il permet de vérifier si les clusters sont bien séparés et compacts. Ainsi, plus le coefficient est élevé, plus le nombre de classe correspondant est optimal. En traçant la courbe du coefficient de silhouette pour un nombre de classe allant de 2 à 10, il ressort que le nombre de classe optimal à considérer est 4.
Visualisation des clusters sur les composantes principales
Pour réaliser cette visualisation, nous utiliserons la fonction HCPC (Hierarchical Clustering on Principle Components) du package FactoMineR, qui permet donc de faire une classification hiérarchique sur des composantes principales. On obtient ainsi quatre (04) groupes de pays. Les pays du groupe 1 sont situés plutôt à l’extrême gauche du premier axe tandisque les pays du quatrième groupe sont plutôt à l’extrême droite du premier axe. Par ailleurs, la majeure partie des pays du groupe 3 sont à droite de l’axe 1 alors qu’une bonne partie des pays du groupe 2 sont à gauche de cet axe. Aussi, comparativement aux pays du groupe 2, ceux du groupe 3 sont très à gauche de l’axe 3. En se reférant aux résultats de l’ACP réalisés plus haut, cela suggèrerait que les pays du premier groupe sont caractérisés par de fortes valeurs pour les variables Ctr_agri_PIB(%), Part_Pop_0-14 ans, Pop_rurale, Crois_pop et de faibles valeurs pour les variables Taux_pene_Tel_mob, Ctr_Tertiaire_PIB(%), Tx_Eau_potable, Part_Pop_65ans_et_plus, Use_Index_Internet. A l’opposé, les pays du groupe 4 présenteraient de fortes valeurs valeurs pour les variables Taux_pene_Tel_mob, Ctr_Tertiaire_PIB(%), Tx_Eau_potable, Part_Pop_65ans_et_plus, Use_Index_Internet et de faibles valeurs pour les variables Ctr_agri_PIB(%), Part_Pop_0-14 ans, Pop_rurale, Crois_pop. Les pays du groupe 2 auraient également des valeurs moins élevés que ceux du groupe 3 pour les variables Taux_pene_Tel_mob, Ctr_Tertiaire_PIB(%), Tx_Eau_potable, Part_Pop_65ans_et_plus, Use_Index_Internet. Par ailleurs, le groupe 3 regrouperait des pays avec un taux de croissance du PIB par habitant très élevé.
Quelques caractéristiques des clusters
Le groupe 1 est constitué de 36 pays, le deuxième groupe 47 pays, le troisième 13 pays et le groupe 4 est constitué de 24 pays.
Croi PIB/hab Ctr_agri_PIB(%) Poids_Exp_sur_PIB(%) clust
Republique du Congo -0.5798551 -0.7527872 1.4908948 2
Niger -1.2323546 1.7497946 -0.8582142 1
Tchad 2.2164076 1.4216805 -0.7633806 1
# A tibble: 4 × 2
clust nombre
<fct> <int>
1 1 36
2 2 47
3 3 13
4 4 24
Parangons des clusters
Le parangon d’un cluster correspond à l’individu le plus proche du centre de ce cluster. Ainsi, après le calcul des distances entre les différents individus et le centre de leur groupe, les parangons trouvés sont: Zimbabwe pour le groupe 1, Liban pour le groupe 2, Chine pour le troisième groupe et Etats-Unis pour le quatrième groupe.
# A tibble: 4 × 20
Pays clust `Croi PIB/hab` `Ctr_agri_PIB(%)` `Poids_Exp_sur_PIB(%)`
<chr> <dbl> <dbl> <dbl> <dbl>
1 Zimbabwe 1 -6.56 16.4 20.4
2 Liban 2 2.90 6.80 16.1
3 Chine 3 8.45 13.6 26.3
4 Etats-Unis 4 1.55 1.19 10.1
# ℹ 15 more variables: `Ctr_Tertiaire_PIB(%)` <dbl>, Tx_Eau_potable <dbl>,
# `Ctrind_PIB(%)` <dbl>, Taux_pene_Tel_mob <dbl>, `Part_Pop_0-14 ans` <dbl>,
# Part_Pop_65ans_et_plus <dbl>, Pop_rurale <dbl>, Crois_pop <dbl>,
# Use_Index_Internet <dbl>, Dim.1 <dbl>, Dim.2 <dbl>, Dim.3 <dbl>,
# Dim.4 <dbl>, Dim.5 <dbl>, distance <dbl>
Visualisation des individus des différents clusters
Labeliser les clusters
En raison des analyses précédentes, on pourrait labeliser les clusters obtenus ainsi qu’il suit:
le premier cluster correspond aux pays à économie agricole et à faible développement, caractérisés par une population jeune, une économie dominée par l’agriculture, une forte population rurale, et une faible contribution du secteur tertiaire dans le PIB. Il s’agit entre autres des pays comme le Niger, le Tchad, le Bangladesh.
le deuxième cluster correspond aux pays en développement à économie tertiaire, caractérisée par une population relativement jeune, une contribution du secteur tertiaire au PIB élevé, une dépendance à l’agriculture moins prononcée que pour le groupe précédent, mais toujours importante. Dans ce groupe se situe entre autres: la République du Congo, le Paraguay, l’ Angola;
le troisième aux pays émergents, et en transition économique, caractérisé par une forte croissance du PIB par habitant, un accès progressif aux infrastructures modernes (eau potable, télécommunications), une forte expansion du secteur secondaire (industrie, exportations). On y retrouve les pays tels que la Chine, l’ Ukraine, la Roumanie;
le quatrième cluster correspond aux pays développés et avancés, avec une forte pénétration des technologies, une population essentiellement vieille, une faible croissance démographique, une économie dominée par le secteur tertiaire. Il s’agit des pays comme la France, les Etats-Unis, l’ Allemagne.
[1] Pays en développement et à économie tertiaire
[2] Pays à économie agricole et faible développement
[3] Pays émergents et en transition économique
[4] Pays développés et avancés
4 Levels: Pays à économie agricole et faible développement ...
Question 4: Indice synthétique normalisé
Les résultats obtenus après calcul de l’indice normalisé montrent que les pays développés ont les indices les plus élevés, supérieur à 0,5 pour chaque pays de ce groupe. L’indice moyen de ce groupe est de 0,73. Ensuite viennent les pays émergents, qui présentent également des valeurs modérées de l’indice, avec quelques pays qui se démarquent avec des indices légèrement plus élevés. La valeur moyenne de l’indice pour ce groupe est de 0,35. Les pays sous développés et moins avancés ont plutôt des valeurs assez voisines pour l’indice. Pour ces groupes, les indices moyens sont respectivement 0,30 et 0,25. En se reférant à la construction de cet indice (axes qui le compose) ainsi qu’aux interprétations données aux axes de l’ACP, nous pouvons dire que l’indice obtenu est un indice de développement économique et structurel (IDES). En effet, cet indicateur permet de prendre en compte les trois dimensions suivantes:
le développement global (axe 1: axe du développement)
la structure économique (axe 2: passage d’une économie tertiaire à une économie industrielle et exportatrice)
la dynamique de croissance (axe 3: croissance du PIB par habitant)
Visualisation des indices
Pays clust
1 Republique du Congo Pays en développement et à économie tertiaire
2 Niger Pays à économie agricole et faible développement
3 Tchad Pays à économie agricole et faible développement
4 Republique centrafricaine Pays à économie agricole et faible développement
5 Cambodge Pays à économie agricole et faible développement
6 Burundi Pays à économie agricole et faible développement
7 Bangladesh Pays à économie agricole et faible développement
8 Nigeria Pays à économie agricole et faible développement
9 Burkina Faso Pays à économie agricole et faible développement
10 Yemen Pays à économie agricole et faible développement
11 Mali Pays à économie agricole et faible développement
12 Malawi Pays à économie agricole et faible développement
13 Laos Pays à économie agricole et faible développement
14 Guinée Pays à économie agricole et faible développement
15 Angola Pays en développement et à économie tertiaire
16 Mozambique Pays à économie agricole et faible développement
17 Tanzanie Pays à économie agricole et faible développement
18 Madagascar Pays à économie agricole et faible développement
19 Nepal Pays à économie agricole et faible développement
20 Mauritanie Pays à économie agricole et faible développement
21 Ouganda Pays à économie agricole et faible développement
22 Albanie Pays émergents et en transition économique
23 Soudan Pays à économie agricole et faible développement
24 Ghana Pays à économie agricole et faible développement
25 Zambie Pays à économie agricole et faible développement
26 Cameroun Pays à économie agricole et faible développement
27 Benin Pays à économie agricole et faible développement
28 Djibouti Pays en développement et à économie tertiaire
29 Côte d'Ivoire Pays à économie agricole et faible développement
30 Syrie Pays en développement et à économie tertiaire
31 Comores Pays à économie agricole et faible développement
32 Pakistan Pays à économie agricole et faible développement
33 Kenya Pays à économie agricole et faible développement
34 Senegal Pays à économie agricole et faible développement
35 Sri Lanka Pays émergents et en transition économique
36 Algerie Pays en développement et à économie tertiaire
37 Indie Pays à économie agricole et faible développement
38 Zimbabwe Pays à économie agricole et faible développement
39 Georgie Pays émergents et en transition économique
40 Paraguay Pays en développement et à économie tertiaire
41 Egypte Pays en développement et à économie tertiaire
42 Nicaragua Pays en développement et à économie tertiaire
43 Gambie Pays à économie agricole et faible développement
44 Swaziland Pays en développement et à économie tertiaire
45 Ukraine Pays émergents et en transition économique
46 Maroc Pays en développement et à économie tertiaire
47 Gabon Pays en développement et à économie tertiaire
48 Honduras Pays en développement et à économie tertiaire
49 Guatemala Pays à économie agricole et faible développement
50 Indonesie Pays en développement et à économie tertiaire
51 Armenie Pays émergents et en transition économique
52 Mongolie Pays en développement et à économie tertiaire
53 Iran Pays en développement et à économie tertiaire
54 Moldavie Pays émergents et en transition économique
55 Kirghizistan Pays à économie agricole et faible développement
56 Namibie Pays en développement et à économie tertiaire
57 Bolivie Pays en développement et à économie tertiaire
58 Botswana Pays en développement et à économie tertiaire
59 Tonga Pays à économie agricole et faible développement
60 Salvador Pays en développement et à économie tertiaire
61 Togo Pays à économie agricole et faible développement
62 Equateur Pays en développement et à économie tertiaire
63 Cap-Vert Pays en développement et à économie tertiaire
64 Fiji Pays en développement et à économie tertiaire
65 Philippines Pays en développement et à économie tertiaire
66 Chine Pays émergents et en transition économique
67 Colombie Pays en développement et à économie tertiaire
68 Russie Pays émergents et en transition économique
69 Suriname Pays en développement et à économie tertiaire
70 Panama Pays en développement et à économie tertiaire
71 Tunisie Pays en développement et à économie tertiaire
72 Venezuela Pays en développement et à économie tertiaire
73 Jordanie Pays en développement et à économie tertiaire
74 Turquie Pays en développement et à économie tertiaire
75 Thailand Pays en développement et à économie tertiaire
76 Afrique du Sud Pays en développement et à économie tertiaire
77 Perou Pays en développement et à économie tertiaire
78 Roumanie Pays émergents et en transition économique
79 Jamaique Pays en développement et à économie tertiaire
80 Bulgarie Pays émergents et en transition économique
81 Belize Pays en développement et à économie tertiaire
82 Mexique Pays en développement et à économie tertiaire
83 Lettonie Pays émergents et en transition économique
84 Maurice Pays en développement et à économie tertiaire
85 Trinité_et-Tobago Pays émergents et en transition économique
86 Sainte-Lucie Pays en développement et à économie tertiaire
87 Argentine Pays en développement et à économie tertiaire
88 Liban Pays en développement et à économie tertiaire
89 Koweit Pays en développement et à économie tertiaire
90 Grèce Pays développés et avancés
91 Costa Rica Pays en développement et à économie tertiaire
92 Uruguay Pays en développement et à économie tertiaire
93 Guyane Pays en développement et à économie tertiaire
94 Croatie Pays émergents et en transition économique
95 Hongrie Pays développés et avancés
96 Slovaquie Pays développés et avancés
97 Republique tch鑡ue Pays développés et avancés
98 Espagne Pays développés et avancés
99 Chilie Pays en développement et à économie tertiaire
100 France Pays développés et avancés
101 Emirats arab unis Pays en développement et à économie tertiaire
102 Malaysie Pays en développement et à économie tertiaire
103 Norvège Pays développés et avancés
104 Italie Pays développés et avancés
105 Belgique Pays développés et avancés
106 Allemagne Pays développés et avancés
107 Luxembourg Pays développés et avancés
108 Estonie Pays développés et avancés
109 Royaume Uni Pays développés et avancés
110 Autriche Pays développés et avancés
111 Japon Pays développés et avancés
112 Danemark Pays développés et avancés
113 Singapore Pays développés et avancés
114 Finlande Pays développés et avancés
115 Australie Pays développés et avancés
116 Nouvelle_Zélande Pays développés et avancés
117 Canada Pays développés et avancés
118 Hollande Pays développés et avancés
119 Etats-Unis Pays développés et avancés
120 Suisse Pays développés et avancés
indice
1 0.24763918
2 0.19521919
3 0.29257129
4 0.15249849
5 0.24036980
6 0.37743918
7 0.26015636
8 0.14552820
9 0.30734789
10 0.33356890
11 0.25294601
12 0.35543698
13 0.24385516
14 0.12356915
15 0.33353237
16 0.17655487
17 0.28480748
18 0.12289784
19 0.41971790
20 0.15052407
21 0.37512301
22 0.31752240
23 0.22469548
24 0.26785944
25 0.19698807
26 0.15038894
27 0.23807982
28 0.02926118
29 0.23364515
30 0.30194258
31 0.27708001
32 0.35610220
33 0.22165405
34 0.29889021
35 0.27275034
36 0.16972514
37 0.32543807
38 0.06412962
39 0.22640203
40 0.28463457
41 0.34104890
42 0.16060261
43 0.30117075
44 0.34852047
45 0.35099417
46 0.21773356
47 0.23574893
48 0.34963999
49 0.40333144
50 0.18824725
51 0.32527824
52 0.11625445
53 0.22902061
54 0.31184733
55 0.27555374
56 0.43529687
57 0.22797030
58 0.40719769
59 0.39411453
60 0.21960360
61 0.13433857
62 0.28671969
63 0.30340232
64 0.00000000
65 0.31757759
66 0.30514070
67 0.17527300
68 0.25862806
69 0.22661508
70 0.31929760
71 0.23984851
72 0.09162109
73 0.34059438
74 0.34204105
75 0.48040093
76 0.30182281
77 0.14048066
78 0.13960825
79 0.39279720
80 0.40348710
81 0.53703542
82 0.26570999
83 0.50442921
84 0.47657028
85 0.57904479
86 0.45720613
87 0.16406531
88 0.27323835
89 0.36476414
90 0.64596737
91 0.36029208
92 0.20477269
93 0.40096820
94 0.57019279
95 0.59235190
96 0.56923888
97 0.59016117
98 0.63195506
99 0.37968394
100 0.60762631
101 0.70787191
102 0.75438706
103 0.74537327
104 0.79165600
105 0.71734850
106 0.67385597
107 1.00000000
108 0.83950277
109 0.70326268
110 0.82938792
111 0.69497846
112 0.73716991
113 0.95073155
114 0.87925384
115 0.65428700
116 0.70349579
117 0.63521610
118 0.82061518
119 0.64759622
120 0.92323527
Valeur moyenne de l’indice dans chaque cluster
Question 5: Découpage de l’indice en classe par la méthode des k-means
La méthode des k-means est une méthode de classification (non supervisée), permettant de séparer des individus en k classes homogènes à l’intérieur et hétérogènes entre elles. Conformément à la consigne de l’exercice, nous effectuerons cet algorithme avec le même nombre de classes que celui obtenu plus haut, à la CAH. Autrement dit, nous découperons notre indice en 4 classes.
cluster indice
Republique du Congo 2 0.24763918
Niger 2 0.19521919
Tchad 3 0.29257129
Republique centrafricaine 2 0.15249849
Cambodge 2 0.24036980
Burundi 3 0.37743918
Bangladesh 2 0.26015636
Nigeria 2 0.14552820
Burkina Faso 3 0.30734789
Yemen 3 0.33356890
Mali 2 0.25294601
Malawi 3 0.35543698
Laos 2 0.24385516
Guinée 2 0.12356915
Angola 3 0.33353237
Mozambique 2 0.17655487
Tanzanie 3 0.28480748
Madagascar 2 0.12289784
Nepal 3 0.41971790
Mauritanie 2 0.15052407
Ouganda 3 0.37512301
Albanie 3 0.31752240
Soudan 2 0.22469548
Ghana 3 0.26785944
Zambie 2 0.19698807
Cameroun 2 0.15038894
Benin 2 0.23807982
Djibouti 2 0.02926118
Côte d'Ivoire 2 0.23364515
Syrie 3 0.30194258
Comores 3 0.27708001
Pakistan 3 0.35610220
Kenya 2 0.22165405
Senegal 3 0.29889021
Sri Lanka 3 0.27275034
Algerie 2 0.16972514
Indie 3 0.32543807
Zimbabwe 2 0.06412962
Georgie 2 0.22640203
Paraguay 3 0.28463457
Egypte 3 0.34104890
Nicaragua 2 0.16060261
Gambie 3 0.30117075
Swaziland 3 0.34852047
Ukraine 3 0.35099417
Maroc 2 0.21773356
Gabon 2 0.23574893
Honduras 3 0.34963999
Guatemala 3 0.40333144
Indonesie 2 0.18824725
Armenie 3 0.32527824
Mongolie 2 0.11625445
Iran 2 0.22902061
Moldavie 3 0.31184733
Kirghizistan 3 0.27555374
Namibie 3 0.43529687
Bolivie 2 0.22797030
Botswana 3 0.40719769
Tonga 3 0.39411453
Salvador 2 0.21960360
Togo 2 0.13433857
Equateur 3 0.28671969
Cap-Vert 3 0.30340232
Fiji 2 0.00000000
Philippines 3 0.31757759
Chine 3 0.30514070
Colombie 2 0.17527300
Russie 2 0.25862806
Suriname 2 0.22661508
Panama 3 0.31929760
Tunisie 2 0.23984851
Venezuela 2 0.09162109
Jordanie 3 0.34059438
Turquie 3 0.34204105
Thailand 3 0.48040093
Afrique du Sud 3 0.30182281
Perou 2 0.14048066
Roumanie 2 0.13960825
Jamaique 3 0.39279720
Bulgarie 3 0.40348710
Belize 4 0.53703542
Mexique 3 0.26570999
Lettonie 4 0.50442921
Maurice 3 0.47657028
Trinité_et-Tobago 4 0.57904479
Sainte-Lucie 3 0.45720613
Argentine 2 0.16406531
Liban 3 0.27323835
Koweit 3 0.36476414
Grèce 4 0.64596737
Costa Rica 3 0.36029208
Uruguay 2 0.20477269
Guyane 3 0.40096820
Croatie 4 0.57019279
Hongrie 4 0.59235190
Slovaquie 4 0.56923888
Republique tch鑡ue 4 0.59016117
Espagne 4 0.63195506
Chilie 3 0.37968394
France 4 0.60762631
Emirats arab unis 4 0.70787191
Malaysie 4 0.75438706
Norvège 4 0.74537327
Italie 1 0.79165600
Belgique 4 0.71734850
Allemagne 4 0.67385597
Luxembourg 1 1.00000000
Estonie 1 0.83950277
Royaume Uni 4 0.70326268
Autriche 1 0.82938792
Japon 4 0.69497846
Danemark 4 0.73716991
Singapore 1 0.95073155
Finlande 1 0.87925384
Australie 4 0.65428700
Nouvelle_Zélande 4 0.70349579
Canada 4 0.63521610
Hollande 1 0.82061518
Etats-Unis 4 0.64759622
Suisse 1 0.92323527
Visualisation des classes d’indice sur les composantes de l’ACP
Nous allons visualiser les classes d’indice sur les composantes de l’ACP, en mettant cette variable en supplémentaire dans la fonction PCA. Ainsi, à partir des analyses de l’ analyse factorielle faites à la question 2, nous pouvons libellé nos intervalles ainsi qu’il suit:
- classe_indice 1: pays développés et avancés; les indices de cette classe vont de 0 à 0,26 ,
- classe_indice 2: pays à économie agricole et faible développement; ici, les indices vont de 0,26 à 0,48 ,
- classe_indice 3: pays émergents et en transition économique, pour les indices allant de 0,48 à 0,75 ,
- classe_indice 4: pays en développement et à économie tertiaire, avec des indices allant de 0,75 à 1.
Libeller les classes d’indice
Récupération des différentes classes
Question 6: Réalisation de l’AFD
Détection de multicolinéarité
Division des données en testing et training
La division du jeu de données est faite en appliquant la méthode de l’échantillon test. Ainsi, nous conserverons 80% des données pour l’échantillon d’entraînement (training) et les 20% restants pour l’échantillon de test (testing).
Réalisation de l’analyse discriminante
L’analyse discriminante rélisée, conduit à l’obtention de trois nouvelles variables (variables discrinantes). Toutefois, la première variable discriminante a un pouvoir discriminant de 0,93, et la deuxième a un pouvoir égale à 0,05. La troisième variable se positionne ainsi avec un pouvoir discriminant de 0,02. Ainsi, pour la suite des analyses, nous ne considèrerons que le premier plan discriminant.
Call:
lda(classe_indice ~ ., data = training)
Prior probabilities of groups:
Pays développés et avancés
0.07070707
Pays à économie agricole et faible développement
0.31313131
Pays en développement et à économie tertiaire
0.44444444
Pays émergents et en transition économique
0.17171717
Group means:
Croi_PIB_hab Ctr_agri_PIB
Pays développés et avancés 0.1693009 -1.0261086
Pays à économie agricole et faible développement -0.5317498 0.5179216
Pays en développement et à économie tertiaire 0.1823361 0.2202792
Pays émergents et en transition économique 0.2275461 -0.9029018
Poids_Exp_sur_PIB
Pays développés et avancés 1.70670101
Pays à économie agricole et faible développement -0.38796895
Pays en développement et à économie tertiaire -0.07052633
Pays émergents et en transition économique 0.15007791
Ctr_Tertiaire_PIB
Pays développés et avancés 1.2288540
Pays à économie agricole et faible développement -0.3410353
Pays en développement et à économie tertiaire -0.1890596
Pays émergents et en transition économique 0.6803618
Tx_Eau_potable Ctrind_PIB
Pays développés et avancés 0.92678651 -0.19572737
Pays à économie agricole et faible développement -0.75569412 -0.23398822
Pays en développement et à économie tertiaire 0.03284747 -0.04997352
Pays émergents et en transition économique 0.87604694 0.31109370
Taux_pene_Tel_mob
Pays développés et avancés 2.1942315
Pays à économie agricole et faible développement -0.5569620
Pays en développement et à économie tertiaire -0.4215576
Pays émergents et en transition économique 1.2452006
`Part_Pop_0-14 ans`
Pays développés et avancés -1.3124689
Pays à économie agricole et faible développement 0.5488557
Pays en développement et à économie tertiaire 0.3122005
Pays émergents et en transition économique -1.1884229
Part_Pop_65ans_et_plus
Pays développés et avancés 1.4817942
Pays à économie agricole et faible développement -0.4594996
Pays en développement et à économie tertiaire -0.3824750
Pays émergents et en transition économique 1.1487179
Pop_rurale Crois_pop
Pays développés et avancés -1.0390171 -0.7678311
Pays à économie agricole et faible développement 0.1441997 0.2615902
Pays en développement et à économie tertiaire 0.4029295 0.1342267
Pays émergents et en transition économique -0.6818606 -0.4387220
Use_Index_Internet
Pays développés et avancés 2.1854261
Pays à économie agricole et faible développement -0.5508728
Pays en développement et à économie tertiaire -0.4215175
Pays émergents et en transition économique 1.2631225
Coefficients of linear discriminants:
LD1 LD2 LD3
Croi_PIB_hab -0.8011271 0.81166331 -0.19142908
Ctr_agri_PIB -1.0221042 -2.31120389 0.79515691
Poids_Exp_sur_PIB -0.7387970 0.07567048 -0.75526385
Ctr_Tertiaire_PIB -1.1154791 -1.98717547 0.94639156
Tx_Eau_potable -0.9964991 1.81789260 -0.05256533
Ctrind_PIB -0.7104509 -1.77999388 1.26141603
Taux_pene_Tel_mob -2.2097125 -0.09259953 -0.71638636
`Part_Pop_0-14 ans` -1.2128112 0.92156238 -1.42963429
Part_Pop_65ans_et_plus -1.4673745 -0.12566144 0.39754637
Pop_rurale -1.4073714 0.95754218 0.23264556
Crois_pop -0.6787517 0.33896056 0.82460385
Use_Index_Internet -1.6746530 -0.02372936 -0.01778970
Proportion of trace:
LD1 LD2 LD3
0.9322 0.0523 0.0156
Analyse des résultats
Les probabilités à priori
L’analyse des probabilités à priori montre que notre échantillon d’entraînement était ainsi constitué: 7,1% des pays sont des pays développés et avancés, 31,3% des pays à économie agricole et développement faible, 17,2% des pays émergents et en transition économique et 44,5% sont des pays sous développés et à économie tertiaire.
Pays développés et avancés
0.07070707
Pays à économie agricole et faible développement
0.31313131
Pays en développement et à économie tertiaire
0.44444444
Pays émergents et en transition économique
0.17171717
Les moyennes dans les classes
Croi_PIB_hab Ctr_agri_PIB
Pays développés et avancés 0.1693009 -1.0261086
Pays à économie agricole et faible développement -0.5317498 0.5179216
Pays en développement et à économie tertiaire 0.1823361 0.2202792
Pays émergents et en transition économique 0.2275461 -0.9029018
Poids_Exp_sur_PIB
Pays développés et avancés 1.70670101
Pays à économie agricole et faible développement -0.38796895
Pays en développement et à économie tertiaire -0.07052633
Pays émergents et en transition économique 0.15007791
Ctr_Tertiaire_PIB
Pays développés et avancés 1.2288540
Pays à économie agricole et faible développement -0.3410353
Pays en développement et à économie tertiaire -0.1890596
Pays émergents et en transition économique 0.6803618
Tx_Eau_potable Ctrind_PIB
Pays développés et avancés 0.92678651 -0.19572737
Pays à économie agricole et faible développement -0.75569412 -0.23398822
Pays en développement et à économie tertiaire 0.03284747 -0.04997352
Pays émergents et en transition économique 0.87604694 0.31109370
Taux_pene_Tel_mob
Pays développés et avancés 2.1942315
Pays à économie agricole et faible développement -0.5569620
Pays en développement et à économie tertiaire -0.4215576
Pays émergents et en transition économique 1.2452006
`Part_Pop_0-14 ans`
Pays développés et avancés -1.3124689
Pays à économie agricole et faible développement 0.5488557
Pays en développement et à économie tertiaire 0.3122005
Pays émergents et en transition économique -1.1884229
Part_Pop_65ans_et_plus
Pays développés et avancés 1.4817942
Pays à économie agricole et faible développement -0.4594996
Pays en développement et à économie tertiaire -0.3824750
Pays émergents et en transition économique 1.1487179
Pop_rurale Crois_pop
Pays développés et avancés -1.0390171 -0.7678311
Pays à économie agricole et faible développement 0.1441997 0.2615902
Pays en développement et à économie tertiaire 0.4029295 0.1342267
Pays émergents et en transition économique -0.6818606 -0.4387220
Use_Index_Internet
Pays développés et avancés 2.1854261
Pays à économie agricole et faible développement -0.5508728
Pays en développement et à économie tertiaire -0.4215175
Pays émergents et en transition économique 1.2631225
Les coefficients des variables discriminantes
LD1 LD2 LD3
Croi_PIB_hab -0.8011271 0.81166331 -0.19142908
Ctr_agri_PIB -1.0221042 -2.31120389 0.79515691
Poids_Exp_sur_PIB -0.7387970 0.07567048 -0.75526385
Ctr_Tertiaire_PIB -1.1154791 -1.98717547 0.94639156
Tx_Eau_potable -0.9964991 1.81789260 -0.05256533
Ctrind_PIB -0.7104509 -1.77999388 1.26141603
Taux_pene_Tel_mob -2.2097125 -0.09259953 -0.71638636
`Part_Pop_0-14 ans` -1.2128112 0.92156238 -1.42963429
Part_Pop_65ans_et_plus -1.4673745 -0.12566144 0.39754637
Pop_rurale -1.4073714 0.95754218 0.23264556
Crois_pop -0.6787517 0.33896056 0.82460385
Use_Index_Internet -1.6746530 -0.02372936 -0.01778970
[1] "Croi_PIB_hab" "Ctr_agri_PIB" "Poids_Exp_sur_PIB"
[4] "Ctr_Tertiaire_PIB" "Tx_Eau_potable" "Ctrind_PIB"
[7] "Taux_pene_Tel_mob" "Part_Pop_0-14 ans" "Part_Pop_65ans_et_plus"
[10] "Pop_rurale" "Crois_pop" "Use_Index_Internet"
[13] "classe_indice"
Représentations graphiques
En discriminant nos individus en fonction de la première variable discriminante et la seconde, on s’aperçoit que le premier axe discriminant offre une bonne séparation entre les différents groupes de pays, malgré quelques légers chevauchements, reflétant davantage son pouvoir discriminant s’élevant à 93,22%. Le deuxième axe n’offre pas une très bonne division des groupes dans l’ensemble, mais toutefois, cet axe permet de bien distinguer les pays développés et avancés des pays en développement et à économie tertiaire.
Discrimination suivant le premier axe
Discrimination suivant le deuxième axe
Prédictions
[1] "class" "posterior" "x"
Matrice de confusion
Predicted
Actual Pays développés et avancés
Pays développés et avancés 1
Pays à économie agricole et faible développement 0
Pays en développement et à économie tertiaire 0
Pays émergents et en transition économique 1
Predicted
Actual Pays à économie agricole et faible développement
Pays développés et avancés 0
Pays à économie agricole et faible développement 7
Pays en développement et à économie tertiaire 0
Pays émergents et en transition économique 0
Predicted
Actual Pays en développement et à économie tertiaire
Pays développés et avancés 0
Pays à économie agricole et faible développement 3
Pays en développement et à économie tertiaire 5
Pays émergents et en transition économique 1
Predicted
Actual Pays émergents et en transition économique
Pays développés et avancés 0
Pays à économie agricole et faible développement 0
Pays en développement et à économie tertiaire 0
Pays émergents et en transition économique 3
[1] 76.19048
Question 7: Comparaison des taux d’erreur de classement (TEC) {#sec-question-7-comparaison-des-taux-derreur-de-classement-(tec style=“color: blue”}
Dans cette partie, il s’agit de comparer le taux d’erreur de classement (TEC) de l’AFD réalisé, et celui de la classification sur composantes principales.
Matrice de confusion et TEC de l’AFD
Le taux d’erreur de l’AFD est obtenu en rapportant le nombre total d’individus mal classés au nombre total de prédictions réalisées. Ce calcul nous permet alors de conclure que le taux d’erreur de classement de l’AFD réalisé s’élève à 23,8%.
Predicted
Actual Pays développés et avancés
Pays développés et avancés 1
Pays à économie agricole et faible développement 0
Pays en développement et à économie tertiaire 0
Pays émergents et en transition économique 1
Predicted
Actual Pays à économie agricole et faible développement
Pays développés et avancés 0
Pays à économie agricole et faible développement 7
Pays en développement et à économie tertiaire 0
Pays émergents et en transition économique 0
Predicted
Actual Pays en développement et à économie tertiaire
Pays développés et avancés 0
Pays à économie agricole et faible développement 3
Pays en développement et à économie tertiaire 5
Pays émergents et en transition économique 1
Predicted
Actual Pays émergents et en transition économique
Pays développés et avancés 0
Pays à économie agricole et faible développement 0
Pays en développement et à économie tertiaire 0
Pays émergents et en transition économique 3
[1] 76.19048
Taux d’erreur de la classification sur composantes principales
[1] Pays en développement et à économie tertiaire
[2] Pays à économie agricole et faible développement
[3] Pays émergents et en transition économique
[4] Pays développés et avancés
4 Levels: Pays à économie agricole et faible développement ...
[1] Pays à économie agricole et faible développement
[2] Pays en développement et à économie tertiaire
[3] Pays émergents et en transition économique
[4] Pays développés et avancés
4 Levels: Pays développés et avancés ...
[1] 45.83333
Conclusion :
En utilisant la matrice de confusion de l’AFD, ainsi que le croisement entre la variable cluster de la CAH (question 3) et la variable classe_indice, il ressort que le taux d’erreur de classement (TEC) obtenu par l’analyse factorielle discriminante est de 23,8%, alors que celui de la classification hiérarchique sur composantes principales est de 54,2%. Cette différence notable de performance indique que, malgré la robustesse de la CAH dans l’identification des groupes à partir des variables observées, l’AFD s’avère être une méthode plus fiable pour discriminer et classifier correctement les différentes catégories des pays, avec un taux d’erreur plus faible. En conséquence, l’AFD semble offrir une meilleure capacité de discrimination entre les groupes, ce qui peut être avantageux dans les contextes où une classification précise est cruciale. Toutefois, il est important de considérer que la CAH, bien que présentant un taux d’erreur plus élevé, offre une approche plus flexible, adaptée aux situations où les hypothèses sous-jacentes de la méthode AFD ne sont pas entièrement vérifiées.